2024/10/02

是的,我是「LLM 通往 AGI」的唱衰者

 

其實我一直都不覺得大語言模型(LLM)會通往通用人工智慧(AGI),但這顯然不是主流媒體的說法,尤其是每次 OpenAI 推出什麼「新奇」的產品時。
目前 OpenAI 最新的產品是 o1,主要是加入了一層 CoT (Chain of Thoughts),大幅提昇「透過逐步拆解來解決複雜問題」的能力。推出之後很多人拿來玩各種考試,幾乎都是高分通過。熱心網友拿前幾年台灣的大學入學測驗來測試,結果分數高達 PR88,分數足以上絕大多數的系所。

然而,這也不是故事的全貌。

介紹兩篇研究:

‘In awe’: scientists impressed by latest ChatGPT model o1 」這篇 Nature 上的文章指出,雖然 o1 在很多考試中贏過博士級的考生,但其實這個模型的「幻覺」(hallucination)比前幾代單純的 LLM 更加嚴重。這個產品與其拿來引導新手,毋寧更適合作為專家的助手(因為專家才能辨別AI 錯誤的部份加以修正)。

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench」這篇研究直接拿 o1 來做 PlanBench(一個專門用來測試 LLM 規劃與推理能力的題庫),結果發現雖然在成績上比起 LLM 有大幅提昇,但其實依然不夠好,要號稱「大型推理模型」(Large Reasoning Model, LRM)似乎還需要一些努力。


是的,我是「LLM 通往 AGI」的唱衰者,它頂多是 AGI 的使用界面。我相信 LLM 是很有用的工具,但它絕對不是一個「萬能問答機」,除非你不在乎它會答錯。或許是我對機器的要求比較高,但如果我們不在乎會錯,那隨便問個人類就好了,至少你還可以把責任推給對方呢。

沒有留言: